声音事件检测(SED)和声学场景分类(ASC)是两项广泛研究的音频任务,构成了声学场景分析研究的重要组成部分。考虑声音事件和声学场景之间的共享信息,共同执行这两个任务是复杂的机器聆听系统的自然部分。在本文中,我们研究了几个空间音频特征在训练执行SED和ASC的关节深神经网络(DNN)模型中的有用性。对包含双耳记录和同步声音事件和声学场景标签的两个不同数据集进行了实验,以分析执行SED和ASC之间的差异。提出的结果表明,使用特定双耳特征,主要是与相变(GCC-PHAT)的广义交叉相关性以及相位差异的罪和余弦,从而在单独和关节任务中具有更好的性能模型,与基线方法相比仅基于logmel能量。
translated by 谷歌翻译